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摘 要 : 针对 运动 类 视频 特征 不 易 提取 ， 且 其 关键 帧 结果 中 易 产 生 较 多 汤 检 帧 的 问题 ， 提 出 了 基于 运动 目标 特征 的 关 
键 帧 提取 算法 。 该 算法 在 强调 运动 目标 特征 的 同时 弱化 背景 特征 ， 从 而 防止 由 于 运动 目标 过 小 而 背景 占据 视频 画面 主 
要 内 容 所 导致 的 漏 检 和 完 余 现 象 。 首 先 根据 视频 帧 值 将 颜色 变化 明显 的 帧 作为 部 分 关键 帧 ， 对 颜色 未 发 生 突变 的 帧 
根据 运动 物体 的 尺度 不 变 特征 变换 (SIFT) 获 得 帧 内 运动 目标 的 特征 点 。 最 后 分 别 根 据 帧 灶 值 及 运动 物体 SIFT 点 分 布 提 
取 视 频 关 键 帧 。 实 验 结 果 表 明 该 算法 所 得 关键 帧 结果 集 不 仅 漏 检 率 较 低 且 能 够 准确 地 表达 原 视频 内 容 。 
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Key frame extraction algorithm based on feature of moving target 


Tian Lihua, Zhang Mi, Li Chen' 
(School of Software Engineering, Xi’an Jiaotong University, Xi’an 710086, China) 


Abstract: Motion features are difficult to extract which easily leads to missed and redundant frames in the result. In order to 
solve this problem, this paper proposes a method of key frames extraction based on feature of moving target. The method reduces 
redundant rate and missed rate of the result set by emphasizing the features of the moving target and weakening the background 
features of the frame. In this method, a frame with a burst entropy change is taken as part of the key frame firstly. Then, our 
method extracts the SIFT points of the moving target from the frame of which the entropy value has not suddenly changed. 
Finally, it extracts key frames according to the entropy and SIFT distribution respectively. Experimental results show that the 
miss rate of this algorithm is low. At the same time, key frame results can accurately and completely describe the main content 
of the video. 
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局 部 特征 提取 关键 帧 的 算法 。 其 中 Hannane 等 人 中 提出 根据 帧 
SIFT 分 布 直方 图 提取 关键 帧 。Barbieri 等 人 中 提出 根据 固定 大 
关键 帧 提取 是 视频 检索 的 重要 步骤 ， 其 提取 结果 质量 好 坏 ”小 窗口 提取 候选 帧 ， 再 根据 候选 帧 间 SIFT 特征 距离 提取 关键 
直接 影响 视频 检索 的 效率 。 由 于 运动 类 视频 中 场景 切换 频繁 ， 帧 ， 然 而 该 方法 所 得 候选 帧 无 法 准确 地 描述 运动 目标 的 变化 过 
故 其 关键 帧 结果 中 存在 较 多 漏 检 帧 。 运 动 类 视频 的 关键 帧 提取 ” 程 。 
方法 多 种 多 样 。 文 献 [1,2] 提 出 通过 分 析 光 流 场 实现 对 运动 场 的 结合 运动 类 视频 特点 ， 本 文 提 出 了 基于 运动 目标 特征 的 关 
分 析 从 而 提取 关键 帧 .Ma 等 人 BI 提出 在 运动 对 象 状态 发 生变 化 刍 帧 提取 算法 。 该 算法 首先 根据 帧 炉 值 选取 颜色 发 生 突变 处 的 
处 提取 关键 帧 申 。Li 等 人 外 提出 了 一 种 聚焦 物体 运动 的 关键 由 页 作为 部 分 关键 帧 。 对 烂 未 发 生 突变 的 帧 ， 根 据 混合 高 斯 模 
提取 算法 ， 该 方法 将 匀速 运动 的 物体 作为 参照 物 ， 从 而 获得 视 ”型 获得 帧 内 运动 物体 并 提取 其 SIFT 特征 ， 计 算 SIFT 分 布 距离 
频 中 运动 目标 并 提取 关键 帧 。 针 对 视频 中 由 于 摄像 机 移动 造成 ” 提取 关键 帧 。 根据 运动 物体 SIFT 分 布 特征 提取 关键 帧 , 在 强调 
的 物体 运动 ， Guironnet 等 人 口 提出 通过 检测 摄像 机 运动 提取 贞 内 运动 目标 变化 的 同时 弱化 背景 变化 带 来 的 影响 ， 因 此 能 
关键 帧 ， 根 据 镜 头 运 动 方式 排列 顺序 不 同 ， 灵 活 地 调整 关键 帧 民 好 地 捕获 运动 物体 的 变化 过 程 。 最 后 使 用 感知 哈 希 算法 获得 
提取 方法 四。 以 上 方法 对 运动 类 视频 的 关键 帧 提取 能 力 有 限 ， 贞 指 纹 ， 计 算 其 汉 明 距离 去 除 结果 中 的 匈 余 帧 ， 以 进一步 提高 
当 视 频 中 存在 快速 运动 的 物体 时 , 关键 帧 结果 中 易 产 生 漏 检 帧 。 关键 帧 对 原 视频 的 有 效 表 达 。 
于 局 部 特征 能 更 好 地 保留 帧 语义 ， 故 目前 存在 较 多 根据 
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1 “理论 基础 


1.1 混合 高 斯 模型 


混合 高 斯 建 模 
从 而 检测 出 视频 中 
鬼 体 ， 首 先 计算 出 


CGMM ) 适 用 于 对 背景 复杂 的 


的 运动 目标 9。 根据 混合 高 


再 遍历 待 处 理 帧 中 


各 像素 点 的 处 理 后 即 能 够 得 到 该 帧 背景 模型 ， 


视频 进行 建 模 ， 


斯 模型 检测 运动 


页 中 像素 点 在 某 时 间 段 内 样本 值 的 概率 密度 
等 信息 ， 接 着 根据 统计 差分 中 常见 原则 判定 各 像素 点 是 
背景 内 容 。 每 读 取 新 的 视频 帧 时 ， 首 先 根据 当前 帧 更 新 


模型 ， 


的 各 像素 点 ， 判 断 其 是 否 为 背景 点 。 完 成 帧 


景 建 模 。 


1.2 SIFT 特征 


SIFT(scale invariant feature transform) 特 征 点 


局 部 特征 。 选 取 物 体 表 面具 有 代表 怕 


通常 称 为 兴趣 点 I 


度 较 低 的 点 ， 物 体 边缘 的 特殊 点 等 并 


然后 根 


到 帧 前 景 。 混 合 高 斯 模型 能 够 很 好 地 对 内 容 复杂 的 视频 进行 背 


点 
的 点 来 描述 物体 ， 


ET 
背景 得 


这 些 点 


]， 如 较 暗 区 域 亮度 较 高 的 点 ， 明 亮 区 域 中 亮 


不 会 因为 图 像 缩 放 或 者 旋转 而 产生 较 大 变化 ， 


变 以 及 噪声 干扰 都 具有 一 定 鲁 棒 性 。 


1.3 感知 哈 希 


感知 哈 希 算法 首先 去 掉 图 片 细节 ， 和 忽略 图 
阴影 等 基本 信息 。 接 着 计算 各 帧 灰 度 
散 余 强 变 换 (DCT) 系数 矩阵 ， 仅 保留 左上 和 角 


异 ， 仅 保留 结构 、 


同时 对 于 


单 向 映射 


可 能 成 为 兴趣 点 。 兴 趣 点 


光线 改 


图 像 感知 哈 希 技术 也 称 为 数字 指纹 ， 是 对 多 媒体 信息 的 总 
结 。 感 知 哈 希 是 一 类 从 多 媒体 表示 到 哈 希 值 的 
像 都 有 其 对 应 的 指纹 。 


党 各 图 


田 丽华 ， 等 ; 基于 运动 目标 特征 的 关键 幅 提 取 算 法 


计算 帧 米 值 : 读 入 视频 帧 序列 , 根据 式 (1)(2) 所 示 计 算 帧 炳 


值 ， 将 炉 值 突变 处 的 帧 选 为 部 分 关键 帧 。 
p(X)= Num(x)/m*n 


255 
H=-) p(x)*log(p(x,)) 
i=0 


(1) 


O) 


其 中 : Xi 代表 视频 帧 像素 点 i 处 的 灰 度 值 ，m 和 分 别 为 帧 的 
高 和 宽 。Num(xi) 代 表 帧 内 砍 度 值 为 xi 的 像素 点 总 数量 ,p02) 为 


xi 在 视频 帧 中 出 现 的 概率 。 


测 出 帧 内 运动 物体 并 对 其 进行 腐蚀 膨胀 处 理 。 


a) 对 粒 值 未 发 生 突变 的 帧 ， 根 据 混 合 高 斯 模型 《GMM) 检 


b) 将 帧 分 成 多 个 扇形 区 ， 计 算 相 邻 帧 SIFT 分 布 距离 


(Motion-SIFT) 。 


c) 对 距离 突变 的 帧 ， 计 算 运 动 目标 在 帧 内 所 占 像素 百分比 


(Motion-Rate)， 判 断 当 前 帧 是 否 受到 背景 运动 干扰 。 
dd) 使 用 感知 哈 希 算法 去 除 结果 集中 的 见 余 帧 。 
2.1 混合 高 斯 提取 运动 目标 特征 


读 入 帧 序列 计算 相 邻 帧 炉 值 比 ， 取 突 变 处 的 帧 为 部 分 关 


键 帧 。 对 人 值 未 突变 的 帧 ， 进 一 步 计算 帧 内 运动 物体 
度 判 断 其 是 否 为 关键 帧 ， 有 具体 处 理 过 程 如 下 : 


引 对 焙 值 未 发 生 突变 的 帧 ， 根 据 GMM 获得 视频 由 


景 运动 物体 ， 结 果 如 图 2(b) 所 示 。 


和 变化 程 


贞 内 的 前 


b) 为 使 获得 的 帧 内 运动 目标 轮廓 更 加 清晰 ， 对 帧 前 景 内 容 


进行 腐蚀 膨胀 处 理 。 如 图 2(c) 为 对 图 2(b) 中 的 帧 进行 腐蚀 膨胀 


像 尺 寸 和 


的 8*8 算 


比例 差 


图 的 离 
阵 。 计 


算 所 有 像素 灰 度 均值 ， 比 较 算 阵 各 像素 点 与 均值 大 小 ， 大 于 或 
否则 记 为 “0” 最 后 生成 帧 指纹 。 根 据 


等 于 均值 记 为 “1”， 


计算 汉 明 距离 ， 判 断 帧 相似 性 。 


2 ”基于 运动 目标 特征 的 关键 帧 提取 


贞 指 纹 


为 强调 视频 中 运动 目标 的 变化 ， 本 文 提 出 根据 运动 目标 特 


征 提取 关键 帧 的 算法 。 


的 帧 作为 部 分 关键 帧 。 对 颜色 未 发 生 突 变 的 帧 ， 根 据 帧 
物体 的 SIFT 分 布 提取 关键 帧 。 最 后 根据 感知 哈 希 算法 去 除 结 


J 
ke 

| 
Ar 


计算 帧 炳 值 


根据 炉 差 比 提取 部 分 关键 


混合 高 斯 提取 运动 物体 
计算 Motion-SIFT 距 离 


图 1 关键 帧 提取 过 程 


中 的 元 余 帧 。 算 法 核心 步骤 流程 如 图 1 所 示 。 


处 理 的 结果 。 


9 逐个 获得 视频 中 所 有 焙 值 未 发 生 突变 帧 的 运动 内 容 ， 最 


后 得 到 一 组 仪 包含 运动 物体 的 二 值 化 图 


有 册 


2 ， 帧 内 运动 物体 


(b) 帧 内 运动 物体 (c) 形 态 处 理 图 像 


提取 视频 中 各 帧 的 前 景 内 容 ， 获 得 仅 包 含 运动 物体 的 二 值 


该 算法 首先 计算 帧 焙 值 ， 选 择 颜 色 突变 


内 运动 


化 图 像 ， 其 中 白色 部 分 表示 视频 中 的 运动 物体 ， 黑 色 区 域 为 帧 


的 背景 内 容 。 接 着 提取 帧 运动 内 容 的 SIFT 特征 ， 根 扩 
SIFT 点 分 布 计算 帧 间距 离 。 


居 相 邻 帧 


如 图 3(a) 所 示 为 根据 混合 高 斯 检测 到 的 视频 帧 内 和 
体 完成 腐蚀 膨胀 处 理 后 的 结果 ,提取 并 标记 出 图 3(a) 的 
结果 如 图 3(b) 所 示 。 


的 运动 物 
SIFT 点 


图 3(b) 中 特征 点 分 布 可 得 ，SIFT 点 能 够 


有 效 标记 出 帧 内 运动 物体 的 位 置 。 


(a) 运 动 目标 (b)SIFT 特征 点 
3 运动 物体 SIFT 特征 


2.2 Motion-SIFT 距离 计算 

计算 出 帧 内 运动 物体 的 SIFT 特征 点 (Motion-SIFT)， 根 据 
其 在 各 扇形 区 的 分 布 情况 提取 关键 帧 。 计 算 SIFT 分 布 距离 首 
先 需 获得 帧 内 运动 物体 的 SIFT 特征 点 ， 然 后 把 各 帧 划分 成 多 
个 扇形 区 域 。 接 着 将 SIFT 特征 点 转换 到 极 坐 标 系 下 , 统计 各 扇 
的 SIFT 点 个 数 并 计算 帧 间距 离 提 取 关 键 帧 。Motion-SIFT 
离 计 算 过 程 如 下 : 

1) 帧 扇形 分 区 

为 统计 视频 中 运动 物体 的 SIFT 分 布 情况 ， 本 文 算法 将 视 
频 帧 分 成 多 个 扇形 区 。 由 于 运动 类 视频 的 主要 内 容 可 能 出 现在 
帧 的 任何 区 域 ， 故 根据 不 同 的 半径 和 角度 将 视频 帧 分 成 多 个 肩 
形 区 。 

hh 为 待 分 区 视频 帧 的 高 ，w 为 帧 宽 。 直 角 坐 标 系 下 视频 帧 
中 心 为 OCcoyo)， 其 横 坐 标 ze=w2， 纵 坐标 xo=h2。 以 视频 帧 中 
心 点 为 圆 点 ， 根 据 不 同 半径 和 角度 将 帧 划分 成 多 个 扇形 区 ， 结 


沁 


需 
区 


法 


果 如 图 4 所 示 。 


图 4 帧 肩 形 分 区 

视频 帧 扇形 分 区 有 具体 步骤 如 下 : 

a) 首先 获得 视频 帧 的 高 h 和 宽 w， 以 视频 帧 中 心 O 为 圆 
心 ， 分 别 以 I=w/6, 12=W/3，13=W/2 为 半径 作 圆 ,视频 帧 被 三 个 
同心 圆 分 为 了 3 个 环形 区 域 。 
b) 根据 不 同 角度 对 SIFT 特征 点 划分 : 以 45 度 为 单位 , 使 
用 四 条 过 视频 帧 中 心 O 点 的 直线 , 将 帧 根据 不 同 的 角度 划分 成 
8 个 范围 。 最 终 根 据 角 度 和 距离 不 同 ， 视 频 帧 被 分 成 24 个 扇形 


2) 坐标 系 变换 


田 丽华 ， 等 ; 基于 运动 目标 特征 的 关键 巾 提 取 算 法 


n= + yy) G) 


重复 上 述 步 又 获得 所 有 特征 点 的 极 坐标 ， 统 计 特 征 点 在 各 
扇形 区 内 的 分 布 数量 ， 计 算 帧 间距 离 提 取 关 键 帧 。 

3) Motion-SIFT 分 布 统计 
计算 SIFT 分 布 距离 ， 首 先 需 统计 各 区 特征 点 个 数 并 计 入 
Count[il][j]j。 其 中 ij 分 别 代表 SIFT 特征 点 半径 rz 范围， 和 角度 
当 I=0 时 表示 该 像素 点 处 于 最 小 圆 (ri=w/6) 内 ， 当 r=2 
时 表示 该 像素 点 在 最 大 的 圆 (r3=w/2) 内 或 该 圆 之 外 ， 当 0<0<mr/4 
时 ， 与 该 特征 点 角度 对 应 的 数组 j 值 为 0。 

获得 帧 内 各 扇形 区 SIFT 点 个 数 后 ， 接 着 根据 特征 点 Si 极 
坐标 @9) 确 定 其 所 在 区 域 。 由 式 (6) (7) 可 计算 出 特征 点 (1,9) 所 属 
的 扇形 区 第 (ij) 区 ， 将 此 特征 点 计 入 Count[i][]。 


6 泄 围 。 


r 


1 三 
(w/6) (0) 
& x'>0 y'>0 
(x/4) 
,_ | 0+A 
iy (7) 
2 wr 
(x/4) - 


逐个 判断 运动 物体 SIFT 特征 点 所 在 区 域 ， 得 到 统计 扇形 
特征 点 个 数 的 二 维 数组 ， 该 数组 描述 运动 目标 的 特征 点 分 布 情 


4) 计算 帧 间距 离 

根据 运动 物体 提取 Motion-SIFT 特征 点 ， 从 而 计算 其 帧 间 
距离 。 设 视频 中 的 连续 两 帧 分 别 为 f，fkrr， 其 对 应 的 Motion- 
SIFT 特征 点 分 布 数组 分 别 为 Countk[[j] 和 Count kr[i[]。 如 式 
(8) 所 示 ， 计 算 两 视频 帧 特征 点 分 布 距离 〈SiftCountDiff) 。 


-St 
SifrCountDiff (f., f.,) = (EBcomnt j]-Countiuli, ])") (8) 


i=0 j=0 


由 于 运动 类 视频 中 可 能 将 背景 误 检 为 运动 目标 ， 从 而 造成 
SiftCountDiff 差 值 又 增 。 采 用 平均 值 作为 阐 值 提取 关键 帧 容易 


根据 上 述 步 又 完成 帧 分 区 后 ， 计 算 帧 中 各 区 SIFT 特征 点 
的 分 布 数量 。 统 计 各 区 特征 点 个 数 并 将 所 有 特征 点 从 直角 

系 转换 为 以 原 视频 帧 中 心 O 点 为 极 心 的 极 坐标 下 。(xi,yi) 表 示 

第 i 个 SIFT 特征 点 的 直角 坐标 ， 该 特征 点 Co7 的 极 坐 标 表 示 

形式 为 (ri,0;)。 

如 式 (3) 所 示 , 首 先 计算 出 坐标 为 xy 的 特征 点 以 帧 中 心 为 
原点 的 直角 坐标 系 下 的 坐标 值 (xi*,yi’)。 

| '=%—w/2 

y,'=y,—h/2 


标 


G) 

接着 将 各 特征 点 转换 为 以 视频 帧 中 心 点 O (Ww/2,h/2) 为 极 心 
的 极 坐标 系 下 ， 分 别 根据 式 (4) (5) 计 算出 极 坐标 系 下 SIFT 点 
Co2yD 的 对 应 的 极 坐 标 Gi56D。 


0 = arctan | (4) 


石 一 为 ) 


造成 运动 变化 较 快 处 的 关键 帧 漏 检 。 因 此 本 文 算 法 使 用 相 邻 帧 
间 特 征 点 分 布 距离 的 比值 来 衡量 运动 特征 的 变化 程度 ， 其 计算 


过 程 如 式 (9) 所 示 。 
MotionChange(k,k+1) = SifiCountDif (K+)/ SifiCouniDif (k) (9) 

视频 中 相 邻 两 帧 的 Motion-SIFT 分 布 距 离 比 值 记 为 
MotionChange， 根 据 相 邻 帧 比值 衡量 帧 特征 距离 ， 判 断 是 否 为 
关键 帧 。 当 MotionChange( fk, fsD 值 发 生 突变 时 ， 进 一 步 判 断 
当前 帧 fkn 是 否 受到 背景 运动 干扰 。 若 未 受 背 景 干 扰 则 将 该 帧 
选 为 关键 帧 加 入 关键 帧 集合 中 ;否则 依次 比较 其 后 两 相 邻 帧 的 
特征 点 分 布 距离 ， 直 到 遍历 完 所 有 帧 。 根 据 Motion-SIFT 距离 
提取 关键 帧 伪 代 码 如 下 : 
方法 : 帧 焙 值 及 Motion-SIFT 分 布 距离 提取 关键 帧 


1: Countlijj]—0 


// number of feature points of each sector 
2: for n=0~>iNum do // number of frames of video 


3: extract Motion-Object of frame by GMM 


ChinaXiv 合 作 期 刊 
录用 稿 田 丽 华 ， 等 : 基于 运动 目标 特征 的 关键 帧 提取 算法 
4: extract SIFT points of frame 选取 了 多 个 运动 视频 进行 测试 ,其 中 包括 足球 比赛 .篮球 比赛 、 
5: divide frame into sectors 运动 教学 、 体 操 、 滑 冰 以 及 击剑 等 类 型 视频 。 

6: for k=0—SifiNum do 3.1 评价 标准 
9 gettingr and 0 查 准 率 (P) 和 查 全 率 (R) 是 对 结果 集 的 有 效 评价 标准 。 
8: calculating i and j, Count[i][j]++ 其 中 查 全 率 用 于 衡量 关键 帧 的 漏 检 情况 如 式 (12) 所 示 。 查 准 率 
9: end for 反映 提取 结果 的 准确 性 如 式 (13) 所 示 。 
0: call formula(4-9) calculate SiftCountDiff N 
R=— ee x100% (12) 
8 N.+N 
l: call formula(4-10) calculate MotionChange EE 
2: if MotionChange>oa then TV 
P= 一 一 x100% (13) 
3: if MotionRate>B then 5 
4: goto(2) 其 中 :Ne Nm，Nf 分 别 表示 结果 中 正确 提取 的 关键 帧 数量 ， 漏 检 
5: else 帧 个 数 和 误 检 个 数 。 由 于 关键 帧 提取 过 程 中 R 值 和 P 值 难以 
6: add this frame into keyframe set 顾 ， 因 此 为 综合 度量 结果 集 的 有 效 性 ， 本 文 使 用 两 者 的 调和 平 
7: end if 均值 F 评价 结果 集 ， 其 定义 如 式 (14) 所 示 。 
8: end if 
上 -2xRxP 
9: end for R+P 
2.3 ”Motion-Rate 计算 3.2 ”实验 结果 

通过 混合 高 斯 检测 出 的 视频 中 的 运动 物体 ， 其 中 白色 部 分 ”3.2.1 关键 帧 提取 视觉 结果 
为 帧 内 运动 目标 ， 黑 色 为 帧 背景 内 容 。 计 算 白色 像素 点 在 整个 实验 中 本 文 截取 了 15 个 运动 类 视频 片段 进行 测试 ， 并 确 
帧 中 的 占 比 Motion-Rate)， 根 据 该 占 比 判断 运动 内 容 的 变化 情 定 各 参数 取 值 ， 对 关键 帧 提取 结果 进行 分 析 和 上 总结。 实验 结果 


况 。 当 相 邻 帧 间 的 Motion-Rate 值 在 局 部 范围 发 生 较 大 变化 时 ， 显示 当 汉 明 距 离 n 为 5 时 ,对 相似 帧 判断 最 准确 ;MotionChange 


则 判定 为 有 大 量 背 景 信息 介入 。 比值 大 于 3 时 ， 能 够 判定 该 帧 相对 于 前 一 帧 发 生 了 突变 。 

判断 关键 帧 提取 过 程 中 是 否 受到 运动 背景 干扰 ， 首 先 需 统 为 验证 本 文 算法 的 有 效 性 ， 将 本 文 算法 与 基于 SIFT 分 布 
计 出 帧 内 所 有 白色 像素 点 的 个 数 记 为 MotionCount。 然 后 计算 [ 方 图 的 关键 帧 提取 算法 (SIFT-HD) [9 进行 比较 ,其 视觉 结果 
当前 待 判 断 帧 与 上 一 个 关键 帧 中 运动 目标 的 像素 总 数 比 值 。” 如 图 5~7 所 示 。 


(MotionChange)。 相 邻 关键 帧 间 运 动 目标 像素 总 数 比 值 如 式 (10) | 
所 示 。 a We ， 


MotionChange(li) = MotionCount(i)/ MotionCount(cur) (10) 9jpg 15jpg 36jpg 47jpg 
运动 类 视频 中 ， 帧 内 运动 物体 的 变化 占 整 帧 内 容 百分比 较 (a) 基于 帧 SIFT 分 布 直 方 图 关键 帧 提取 结果 


小 。 故 本 文 根 据 混合 高 斯 检测 出 的 帧 中 运动 目标 在 视频 帧 中 所 
占 百 分 比 (Motion-Rate) 以 及 待 判断 关键 帧 像素 总 数 的 变化 幅度 
来 判断 是 否 存在 背景 干扰 。 运 动 目 标 在 帧 内 所 占 百 分 比 计算 如 


式 (11) 所 示 。 
MotionRate = MotionCount / Allpixel (11) 
根据 帧 运动 目标 像素 占 比 以 及 该 帧 与 其 前 一 帧 的 变化 程度 
即 可 判断 当前 帧 是 否 受到 运动 背景 干扰 。 当 存在 背景 干扰 时 继 (b) 基 于 运动 目标 SIFT 特征 关键 帧 提取 结果 
续 判 断 下 一 候选 帧 是 否 为 关键 帧 ， 未 受到 背景 干扰 时 则 将 该 帧 图 5 花样 滑冰 视频 的 关键 帧 结果 集 


加 入 关键 帧 集合 。 5(a) 中 检测 到 4 个 关键 帧 ,图 5(b) 中 检测 到 8 个 关键 帧 ， 
最 后 , 使 用 感知 哈 希 算法 去 除 所 得 关键 帧 集合 中 的 元 余 帧 。 ”其 中 图 5(a) 和 图 5(b) 都 存在 1 帧 元 余 。 根 据 原 视 频 ， 运 动员 完 
计算 结果 集中 相 邻 帧 间 的 汉 明 距离 ， 当 两 帧 距离 小 于 nm 时 则 认 ” 成 了 多 组 动作 , 包括 两 次 分 开 和 三 次 次 共同 完成 的 动作 。 图 5(a) 
为 当前 存在 一 帧 元 余 。 仅 反映 出 两 次 共同 完成 的 托 举动 作 ， 故 图 5(b) 对 视频 内 容 表达 
更 加 准确 。 
人 如 图 6 所 示 SIFTHD 算法 检测 到 2 个 关键 帧 , 本文 算法 检 
为 检测 本 文 算法 的 有 效 性 , 本文 在 Windows 7 操作 系统 下 测 到 8 个 关键 帧 帧 。 原 视频 中 ， 右 方 选 手 攻击 两 次 防守 一 次 ， 
英特尔 Core i3，2GB 内 存 的 计算 机 上 进行 ， 选 择 Visual Studio 左 方 选手 攻击 一 次 防守 两 次 。 如 图 6(b) 所 示 ， 本 文 结果 能 完 
2010 及 OpenCV3.0 作为 开发 平台 实现 并 测试 该 算法 。 实 验 中 的 表达 两 运动 员 攻 守 情 况 , 而 图 6(a) 无 法 准确 地 表达 原 视频 内 容 。 
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1 ie 基于 帧 SIFT 分 布 直方 图 关键 帧 提取 结 
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42jpg pr 本 jpg 118jpg 
(b) 基于 运动 目标 SIFT 特征 关键 帧 提取 结 
图 6 击剑 关键 帧 结果 
如 图 7(a) 所 示 ， 该 关键 帧 结果 仅 能 描述 出 运动 员 三 步 上 篮 
过 程 ， 丢 失 了 该 运动 员 尝 试 投篮 被 拦 下 的 动作 。 图 7(b) 中 则 可 


标 SIFT 特征 关键 帧 提取 
图 7 血球 教学 片断 关键 帧 结果 
图 5~7 可 得 本 文 算法 相 较 于 文献 [6] 算 法 对 原 视频 内 容 的 
力 更 强 ， 对 原 视频 内 容 的 表达 更 加 准确 。 
3.2.2 实验 结果 分 析 和 对 比 

将 本 文 算 法 分 别 与 基于 帧 SIFT 分 布 直方 图 (SIFT-HD) [9 


表达 能 


及 基于 帧 SIFT 特征 (KS-SIFT) 中 I 的 关键 帧 提取 算法 进行 对 比 。 
计算 结果 的 宛 余 率 ， 漏 检 率 及 其 调和 值 。 由 于 运动 视频 难以 人 
工 标定 关键 帧 ， 故 将 本 文 算法 和 对 比 算法 的 结果 互 为 参考 标准 
判断 各 自 漏 检 帧 。 本 文 算 法 与 SIFT-HD 算法 中 关键 帧 结果 的 漏 
检 及 宛 余 帧 统计 结果 如 表 1 所 示 。 

表 1 本 文 与 SIFT-HD 算法 漏 检 宛 余 对 比 


Ci 
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表 1 可 知 本 文 算法 和 SIFT-HD 算法 所 得 的 结果 中 都 存在 
少量 见 余 , 但 本 文 算法 的 漏 检 帧 少 于 文献 [6]。SIFT-HD 算法 检 
测 到 的 关键 帧 都 包含 在 本 文 算法 结果 中 ， 然 而 本 文 算 法 获得 的 
关键 帧 结果 中 存在 部 分 关键 帧 SIFTHD 算法 未 能 检测 到 。 故 本 
文 算法 所 得 结果 对 原 视频 的 重 现 程度 更 好 。 

将 本 文 算法 与 基于 帧 SIFT 特征 的 关键 帧 提取 算法 (KS- 
SIFT) 中 的 关键 帧 结果 进行 对 比 。KS-SIFT 算法 和 本 文 算法 所 得 
结果 的 漏 检 帧 及 元 余 帧 的 统计 情况 如 表 2 所 示 。 

表 2 与 KS-SIFT 算法 漏 检 宛 余 对 比 


结果 帧 漏 检 帧 宛 余 帧 
视频 ”总 帧 
文献 [7] ”本 文 算法 文献 [7] ”本 文 算法 ”文献 [7] ”本 文 算法 
体操 155 7 9 3 1 1 1 
篮球 1 149 8 12 4 0 0 0 
篮球 2 115 5 8 多 0 0 1 
足球 1 85 4 5 1 0 0 0 
足球 2 82 4 16 9 0 0 3 
足球 3 240 4 5 1 0 0 0 
足球 4 102 6 10 3 0 0 1 
击剑 125 5 10 3 0 0 2 


结果 帧 总 数 漏 检 蚌 元 余 
视频 总 帧 
文献 [6] ”本 文 算法 。 ”文献 [6] 。 本 文 算法 文献 [6] 。” 本文 算法 
体操 155 8 9 3 1 2 1 
篮球 1 ”149 14 12 0 0 和 0 
篮球 2 115 4 8 3 0 1 1 
篮球 3 165 7 13 4 0 1 3 
足球 1 85 4 5 1 0 0 0 
足球 2 82 19 16 1 0 7 3 
足球 3 ”240 5 5 1 0 1 0 
足球 4 ”102 8 10 2 0 1 1 
击剑 125 2 10 6 0 0 2 


表 2 可 知 本 文 算 法 和 KS-SIFT 算法 中 所 得 结果 中 的 宛 余 
帧 都 很 少 。 本 文 算法 的 结果 中 漏 检 帧 极 少 ， 而 参考 文献 算法 存 
在 较 多 漏 检 帧 。 因 此 在 元 余 帧 都 较 少 的 情况 下 ， 本 文 算法 的 查 
全 率 更 高 对 视频 内 容 的 表达 更 加 完整 。 

对 比 本 文 算法 与 KS-SIFT 算法 以 及 SIFTHD 算法 , 计算 三 
种 算法 关键 帧 结果 的 F 值 ， 其 统计 结果 如 图 8 所 示 。 


1200 -SIFT-HD …… KS-SIFT 一 一 本 文 算法 


100% 
80% 一 全 2 
荔 60% ， 
40% 
20% 
0% 
体操 篮球 1 篮球 2 足球 1 足球 2 足球 3 足球 4 击剑 
视频 
图 8 三 种 算法 结果 集 F 值 对 比 
图 8 可 知 本 文 算法 的 综合 表现 更 优 ， 相 对 于 其 他 两 种 算 
法 ， 本 文 算法 所 得 结果 的 值 更 加 稳定 。 其 中 SIFTHD 算法 和 
KS-SIFT 算法 的 了 值 总 体 情况 不 相 上 下 ， 都 存在 个 别 视频 的 下 
值 低 于 50%。 基 于 帧 SIFTHD 关键 帧 提取 算法 四 和 KS-SIFT 算 
法 中 提取 出 的 关键 帧 结果 集中 都 存在 较 多 漏 检 的 关键 帧 ， 故 其 
F 值 略 低 于 本 文 算法 。 
综 上 本 文 算法 提取 出 的 关键 帧 能 完整 的 表达 出 原 视频 的 主 
要 内 容 ， 而 基于 帧 SIFT 分 布 直方 图 关键 帧 提取 算法 所 得 关键 
帧 集合 对 视频 中 部 分 内 容 的 表达 不 够 完整 ， 会 造成 部 分 视频 内 
本 文 进一步 比较 了 三 种 算法 的 运行 效率 ， 实 验 中 对 上 述 8 


录用 稿 


段 运动 类 视频 进行 测试 ， 帧 大 小 均 为 480*272。 三 种 算法 各 自 
的 帧 处 理 平均 时 间 如 表 3 所 示 。 
表 3 算法 处 理 时 间 比 较 


算法 帧 平均 时 间 /s 
KS-SIFT 0.018 
SIFT-HD 0.026 
本 文 算法 0.035 
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表 3 可知 KS-SIFT 算法 耗 时 最 少 ， 其 原因 在 于 KS-SIFT 
算法 选取 固定 位 置 的 帧 为 候选 帧 ， 再 从 候选 帧 中 选取 关键 帧 ， 
能 够 极 大 地 降低 所 需 处 理 的 数据 量 。 然 而 此 方法 虽 简 单 快 损 
但 不 够 灵活 ， 候 选 帧 的 选取 往往 存在 偏差 。SIFT-HD 算法 是 根 
据 帧 SIFT 分 布 直方 图 提取 关键 帧 ， 较 KS-SIFT 算法 肯定 更 为 
耗 时 ， 但 效果 一 般 好 于 KS-SIFT 算法 。 相 较 于 SIFT-HD 算法 ， 
本 文 算法 首先 根据 混合 高 斯 建 模 获 得 帧 内 运动 物体 ， 然 后 提取 
运动 物体 的 SIFT 特征 点 。 该 方法 减少 了 所 需 处 理 的 SIFT 特征 
点 个 数 ， 但 是 在 高 斯 混合 提取 运动 目标 时 需要 一 定 耗 时 ， 故 其 
执行 时 间 略 高 于 SIFTHD 算法 。 虽 然 本 文 算法 耗 时 略 高 ， 但 其 
所 得 的 关键 帧 结合 对 原 视频 的 表达 更 加 准确 ， 且 耗 时 在 相同 数 
量 级 ， 满 足 工程 要 求 。 
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针对 运动 类 视频 ， 本 文 提出 了 一 种 基于 运动 目标 特征 的 关 
键 帧 提取 算法 。 该 算法 强调 视频 中 运动 物体 的 变化 ， 弱 化 视频 
中 运动 背景 的 改变 ， 从 而 防止 由 于 背景 内 容 过 多 或 过 于 复杂 而 
造成 运动 目标 特征 不 明显 导致 的 关键 帧 漏 检 。 实 验 结果 表明 ， 
即使 在 运动 背景 较为 复杂 运动 目标 占据 帧 百分比 较 小 时 ， 该 算 
法 依然 能 够 较 好 地 检测 出 运动 目标 的 变化 。 基 于 运动 目标 特征 
的 关键 帧 算法 所 得 的 关键 帧 结果 ,对 于 原始 视频 内 容 还 原 度 高 ， 
能 够 完整 准确 地 表达 原 视频 内 容 。 
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